5 research outputs found

    METRICC: Harnessing Comparable Corpora for Multilingual Lexicon Development

    Get PDF
    International audienceResearch on comparable corpora has grown in recent years bringing about the possibility of developing multilingual lexicons through the exploitation of comparable corpora to create corpus-driven multilingual dictionaries. To date, this issue has not been widely addressed. This paper focuses on the use of the mechanism of collocational networks proposed by Williams (1998) for exploiting comparable corpora. The paper first provides a description of the METRICC project, which is aimed at the automatically creation of comparable corpora and describes one of the crawlers developed for comparable corpora building, and then discusses the power of collocational networks for multilingual corpus-driven dictionary development

    Collecte orientée sur le Web pour la recherche d'information spécialisée

    Get PDF
    Les moteurs de recherche verticaux, qui se concentrent sur des segments spĂ©cifiques du Web, deviennent aujourd'hui de plus en plus prĂ©sents dans le paysage d'Internet. Les moteurs de recherche thĂ©matiques, notamment, peuvent obtenir de trĂšs bonnes performances en limitant le corpus indexĂ© Ă  un thĂšme connu. Les ambiguĂŻtĂ©s de la langue sont alors d'autant plus contrĂŽlables que le domaine est bien ciblĂ©. De plus, la connaissance des objets et de leurs propriĂ©tĂ©s rend possible le dĂ©veloppement de techniques d'analyse spĂ©cifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thĂšse, nous nous intĂ©ressons plus prĂ©cisĂ©ment Ă  la procĂ©dure de collecte de documents thĂ©matiques Ă  partir du Web pour alimenter un moteur de recherche thĂ©matique. La procĂ©dure de collecte peut ĂȘtre rĂ©alisĂ©e en s'appuyant sur un moteur de recherche gĂ©nĂ©raliste existant (recherche orientĂ©e) ou en parcourant les hyperliens entre les pages Web (exploration orientĂ©e).Nous Ă©tudions tout d'abord la recherche orientĂ©e. Dans ce contexte, l'approche classique consiste Ă  combiner des mot-clĂ©s du domaine d'intĂ©rĂȘt, Ă  les soumettre Ă  un moteur de recherche et Ă  tĂ©lĂ©charger les meilleurs rĂ©sultats retournĂ©s par ce dernier.AprĂšs avoir Ă©valuĂ© empiriquement cette approche sur 340 thĂšmes issus de l'OpenDirectory, nous proposons de l'amĂ©liorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requĂȘtes thĂ©matiques plus pertinentes pour le thĂšme afin d'augmenter la prĂ©cision de la collecte. Nous dĂ©finissons une mĂ©trique fondĂ©e sur un graphe de cooccurrences et un algorithme de marche alĂ©atoire, dans le but de prĂ©dire la pertinence d'une requĂȘte thĂ©matique. En aval du moteur de recherche, nous proposons de filtrer les documents tĂ©lĂ©chargĂ©s afin d'amĂ©liorer la qualitĂ© du corpus produit. Pour ce faire, nous modĂ©lisons la procĂ©dure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche alĂ©atoire biaisĂ© afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thĂšse, nous nous focalisons sur l'exploration orientĂ©e du Web. Au coeur de tout robot d'exploration orientĂ©e se trouve une stratĂ©gie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thĂšme, tout en minimisant le nombre de pages visitĂ©es qui ne sont pas en rapport avec le thĂšme. En pratique, cette stratĂ©gie dĂ©finit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indĂ©pendante du thĂšme Ă  partir de donnĂ©es existantes annotĂ©es automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Collecte orientĂ©e sur le Web pour la recherche d’information spĂ©cialisĂ©e

    No full text
    Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls.Les moteurs de recherche verticaux, qui se concentrent sur des segments spĂ©cifiques du Web, deviennent aujourd'hui de plus en plus prĂ©sents dans le paysage d'Internet. Les moteurs de recherche thĂ©matiques, notamment, peuvent obtenir de trĂšs bonnes performances en limitant le corpus indexĂ© Ă  un thĂšme connu. Les ambiguĂŻtĂ©s de la langue sont alors d'autant plus contrĂŽlables que le domaine est bien ciblĂ©. De plus, la connaissance des objets et de leurs propriĂ©tĂ©s rend possible le dĂ©veloppement de techniques d'analyse spĂ©cifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thĂšse, nous nous intĂ©ressons plus prĂ©cisĂ©ment Ă  la procĂ©dure de collecte de documents thĂ©matiques Ă  partir du Web pour alimenter un moteur de recherche thĂ©matique. La procĂ©dure de collecte peut ĂȘtre rĂ©alisĂ©e en s'appuyant sur un moteur de recherche gĂ©nĂ©raliste existant (recherche orientĂ©e) ou en parcourant les hyperliens entre les pages Web (exploration orientĂ©e).Nous Ă©tudions tout d'abord la recherche orientĂ©e. Dans ce contexte, l'approche classique consiste Ă  combiner des mot-clĂ©s du domaine d'intĂ©rĂȘt, Ă  les soumettre Ă  un moteur de recherche et Ă  tĂ©lĂ©charger les meilleurs rĂ©sultats retournĂ©s par ce dernier.AprĂšs avoir Ă©valuĂ© empiriquement cette approche sur 340 thĂšmes issus de l'OpenDirectory, nous proposons de l'amĂ©liorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requĂȘtes thĂ©matiques plus pertinentes pour le thĂšme afin d'augmenter la prĂ©cision de la collecte. Nous dĂ©finissons une mĂ©trique fondĂ©e sur un graphe de cooccurrences et un algorithme de marche alĂ©atoire, dans le but de prĂ©dire la pertinence d'une requĂȘte thĂ©matique. En aval du moteur de recherche, nous proposons de filtrer les documents tĂ©lĂ©chargĂ©s afin d'amĂ©liorer la qualitĂ© du corpus produit. Pour ce faire, nous modĂ©lisons la procĂ©dure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche alĂ©atoire biaisĂ© afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thĂšse, nous nous focalisons sur l'exploration orientĂ©e du Web. Au coeur de tout robot d'exploration orientĂ©e se trouve une stratĂ©gie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thĂšme, tout en minimisant le nombre de pages visitĂ©es qui ne sont pas en rapport avec le thĂšme. En pratique, cette stratĂ©gie dĂ©finit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indĂ©pendante du thĂšme Ă  partir de donnĂ©es existantes annotĂ©es automatiquement

    Focused document gathering on the Web for domain-specific information retrieval

    No full text
    Les moteurs de recherche verticaux, qui se concentrent sur des segments spĂ©cifiques du Web, deviennent aujourd'hui de plus en plus prĂ©sents dans le paysage d'Internet. Les moteurs de recherche thĂ©matiques, notamment, peuvent obtenir de trĂšs bonnes performances en limitant le corpus indexĂ© Ă  un thĂšme connu. Les ambiguĂŻtĂ©s de la langue sont alors d'autant plus contrĂŽlables que le domaine est bien ciblĂ©. De plus, la connaissance des objets et de leurs propriĂ©tĂ©s rend possible le dĂ©veloppement de techniques d'analyse spĂ©cifiques afin d'extraire des informations pertinentes.Dans le cadre de cette thĂšse, nous nous intĂ©ressons plus prĂ©cisĂ©ment Ă  la procĂ©dure de collecte de documents thĂ©matiques Ă  partir du Web pour alimenter un moteur de recherche thĂ©matique. La procĂ©dure de collecte peut ĂȘtre rĂ©alisĂ©e en s'appuyant sur un moteur de recherche gĂ©nĂ©raliste existant (recherche orientĂ©e) ou en parcourant les hyperliens entre les pages Web (exploration orientĂ©e).Nous Ă©tudions tout d'abord la recherche orientĂ©e. Dans ce contexte, l'approche classique consiste Ă  combiner des mot-clĂ©s du domaine d'intĂ©rĂȘt, Ă  les soumettre Ă  un moteur de recherche et Ă  tĂ©lĂ©charger les meilleurs rĂ©sultats retournĂ©s par ce dernier.AprĂšs avoir Ă©valuĂ© empiriquement cette approche sur 340 thĂšmes issus de l'OpenDirectory, nous proposons de l'amĂ©liorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requĂȘtes thĂ©matiques plus pertinentes pour le thĂšme afin d'augmenter la prĂ©cision de la collecte. Nous dĂ©finissons une mĂ©trique fondĂ©e sur un graphe de cooccurrences et un algorithme de marche alĂ©atoire, dans le but de prĂ©dire la pertinence d'une requĂȘte thĂ©matique. En aval du moteur de recherche, nous proposons de filtrer les documents tĂ©lĂ©chargĂ©s afin d'amĂ©liorer la qualitĂ© du corpus produit. Pour ce faire, nous modĂ©lisons la procĂ©dure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche alĂ©atoire biaisĂ© afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette thĂšse, nous nous focalisons sur l'exploration orientĂ©e du Web. Au coeur de tout robot d'exploration orientĂ©e se trouve une stratĂ©gie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thĂšme, tout en minimisant le nombre de pages visitĂ©es qui ne sont pas en rapport avec le thĂšme. En pratique, cette stratĂ©gie dĂ©finit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement indĂ©pendante du thĂšme Ă  partir de donnĂ©es existantes annotĂ©es automatiquement.Vertical search engines, which focus on a specific segment of the Web, become more and more present in the Internet landscape. Topical search engines, notably, can obtain a significant performance boost by limiting their index on a specific topic. By doing so, language ambiguities are reduced, and both the algorithms and the user interface can take advantage of domain knowledge, such as domain objects or characteristics, to satisfy user information needs.In this thesis, we tackle the first inevitable step of a all topical search engine : focused document gathering from the Web. A thorough study of the state of art leads us to consider two strategies to gather topical documents from the Web: either relying on an existing search engine index (focused search) or directly crawling the Web (focused crawling).The first part of our research has been dedicated to focused search. In this context, a standard approach consists in combining domain-specific terms into queries, submitting those queries to a search engine and down- loading top ranked documents. After empirically evaluating this approach over 340 topics, we propose to enhance it in two different ways: Upstream of the search engine, we aim at formulating more relevant queries in or- der to increase the precision of the top retrieved documents. To do so, we define a metric based on a co-occurrence graph and a random walk algorithm, which aims at predicting the topical relevance of a query. Downstream of the search engine, we filter the retrieved documents in order to improve the document collection quality. We do so by modeling our gathering process as a tripartite graph and applying a random walk with restart algorithm so as to simultaneously order by relevance the documents and terms appearing in our corpus.In the second part of this thesis, we turn to focused crawling. We describe our focused crawler implementation that was designed to scale horizontally. Then, we consider the problem of crawl frontier ordering, which is at the very heart of a focused crawler. Such ordering strategy allows the crawler to prioritize its fetches, maximizing the number of in-domain documents retrieved while minimizing the non relevant ones. We propose to apply learning to rank algorithms to efficiently order the crawl frontier, and define a method to learn a ranking function from existing crawls

    METRICC: Harnessing Comparable Corpora for Multilingual Lexicon Development

    No full text
    International audienceResearch on comparable corpora has grown in recent years bringing about the possibility of developing multilingual lexicons through the exploitation of comparable corpora to create corpus-driven multilingual dictionaries. To date, this issue has not been widely addressed. This paper focuses on the use of the mechanism of collocational networks proposed by Williams (1998) for exploiting comparable corpora. The paper first provides a description of the METRICC project, which is aimed at the automatically creation of comparable corpora and describes one of the crawlers developed for comparable corpora building, and then discusses the power of collocational networks for multilingual corpus-driven dictionary development
    corecore